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基于 环 分 布 的 频繁 子 图 挖掘 算法 * 


ERED, AO M, BERS, 常安 定 !， 赵 建 邦 ? 
(1- 长 安 大 学 理学 院 ， 西 安 710064; 2- 西安 电子 科技 人 学 计算 机 学 院 ， 西 安 710071; 
3- 西安 右 油 人 学 理学 院 ， 西 710065) 
摘 E 频繁 了 图 挖掘 主要 涉及 到 子 图 搜索 和 了 图 同 构 问 题 。 对 子 图 搜索 问题 ， 本 文 提 出 了 环 分 布 的 概 
念 ， 并 构造 了 基于 环 分 布 的 了 图 搜索 算法 ， 对 了 图 同 构 问 题 ， 本 文 利 用 度 序列 和 特征 值 构造 了 两 
种 算法 ， 分 别 用 于 对 有 向 图 和 无 向 图 的 同 构 判别 。 利 用 同 构 算 法 对 搜索 出 的 了 图 进行 同 构 分 类 ， 
根据 分 类 结果 得 到 频繁 子 图 。 实 验 结果 表明 ， 本 算法 的 效率 优 玫 坝 有 算法 。 
关键 词 : 频繁 子 图 ， 了 图 搜索 ， 子 图 同 构 ， 特 征 值 ， 度 序列 
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1 引言 


在 生物 信息 学 、 社 会 网 络 、 集 成 电路 的 布局 布线 、Web 数 据 挖掘、 网络 工程 等 众多 领 
域 都 积累 了 大 量 的 关于 图 的 数据 ， 这 些 数 据 中 包含 了 大 量 重 要 的 信息 ， 而 频繁 发 生 的 子 图 
往往 是 这 些 信 息 的 载体 。 所 以 ， 频 繁 子 图 的 控 据 问题 具有 重要 的 应 用 价值 。 子 图 挖掘 的 
研究 工作 始 于 1994 年 Holder 等 人 出 £& t fr x ds Eae 5114; SUBDUE; 1994 年 ，Yoshida 等 
AB 提出 了 一 个 子 图 挖掘 算法 GBI， 它 类 似 SUBDUE 算 法 ， 但 采用 了 不 同 的 启发 式 搜索 策 
略 。2000 年 ，Inokuchi 等 全 提出 了 一 个 基于 Apriori 思想 的 频繁 子 图 模式 挖 据 算 法 AGM, 
随后 在 AGM 算 法 的 基础 上 ， 提 出 了 挖掘 连通 频繁 子 图 的 算法 AcGM 办 。2002 年 以 后 ， 各 种 
不 同 的 子 图 挖掘 的 算法 被 提出 来 ， 比 较 有 影响 的 算法 有 ，Yan and Hang 提出 的 gSpan 算 
ik, Kuramochi & A8 提出 的 FSG yk, Wernicke”! 提出 的 ESU 算 法 。 除 了 上 述 这 些 图 模式 
挖掘 的 通用 算法 外 ， 研 究 人 员 还 提出 了 大 晤 运用 于 实际 问题 的 图 模式 挖掘 算法 B&9]。 综 上 所 
述 ， 图 模式 挖掘 算法 多 种 多 样 ， 应 用 广泛 ， 但 由 于 问题 本 身 的 复杂 度 导致 现 有 算法 的 效率 还 不 
FLAGS 

子 图 同 构 是 频繁 子 图 挖掘 中 的 一 个 关键 步骤 。 在 一 般 意 义 下 ,， 图 的 同 构 是 NP- 完 全 问 
题 L10 ， 有 人 试图 用 图 的 一 组 不 变量 来 确定 图 的 同 构 ， 如 回路 数 、 树 数 、 连 通 片 数 等 ， 这 些 尝 
试 都 归于 失败 ， 因 为 不 同 构 的 图 也 会 出 现 完全 相同 的 不 变量 03 。 所 以 子 图 同 构 问 题 成 为 子 图 
挖掘 的 一 个 瓶颈 。 目 前 ， 子 图 同 构 的 最 常用 的 是 最 小 编码 算法 03， 对 无 标签 图 特别 是 无 向 
图 ， 这 种 算法 效率 不 高 。 本 文通 过 引入 综合 度 ， 提 出 局 部 序号 置换 算法 ， 对 无 向 图 ， 利 用 特征 
值 理 论 ， 构 造 了 特征 值 同 构 算 法 。 实 验 表 明 ， 在 频繁 子 图 挖掘 的 两 个 环节 ， 本 文 的 算法 均 优 于 
文献 f7] 的 算法 。 

本 文 研究 的 主要 内 容 是 : 
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1) 提出 了 一 种 基于 节点 坏 分 布 的 子 图 搜索 算法 ESR (Enumerate Subgraphs based on 
Ring): 

2) 构造 了 子 图 同 必 算法 : 局 部 序号 置换 算法 和 特征 值 同 构 算 法 ; 

3) 对 5 个 趴 实生 物 网 络 进行 了 仿 趴 试验 研究 ， 找 出 了 频繁 子 图 ， 并 对 算法 的 效 座 进 行 了 比 
较 分 析 。 


2 ”相关 定义 及 其 基本 结论 


定义 1 G= (VV, 也 ) 为 一 个 给 定 的 图 ， FR Gs = (Vs, 五 ,) 为 G 的 子 图 ， HNV c 
VHE,C E. Ib, WR E BE EPRA V 中 节点 的 边 ， 则 称 Gs = (Vs, Es) 为 G 的 
导出 子 图 。 

特别 指出 ， 本 文 所 要 搜索 的 子 图 是 指 连通 的 导出 子 图 ， 并 记 上 阶 子 图 为 G*。 

定义 2 设 G 为 一 个 m 阶 (有 m 个 节点 ) 图 ， 称 复数 Di 为 节点 i 的 综合 度 ， 其 中 D; 的 实 部 
为 节点 i 的 出 度 SO;， 虚 部 为 节点 i 的 入 度 SI 对 无 向 图 ， 综 合 度 即 为 节点 的 度 ;， 规定 复数 的 
序 为 实 部 和 虚 部 的 学 典 序 ， 将 Di (i = 1,2,… ,m) 按 升序 排列 得 到 的 序列 称 为 顺序 度 向 量 ， 
并 记 为 T， 即 T= (Dap D(z),… Dm) EP Do sm Di (i = 1,2,… ,mm) 按 升序 排列 后 的 
第 i 个 元 素 。 

定义 3 对 相同 阶 数 的 所 有 连通 图 ， 按 同 构 关系 将 其 分 成 若干 个 类 ， 称 这 样 的 类 为 等 价 类 。 

定义 4 对 单位 矩阵 作 两 行 互 换 所 得 的 矩阵 称 为 初等 置换 矩阵 ， 对 单位 矩阵 进行 若干 次 两 行 
互 换 所 得 的 矩阵 称 为 署 换 矩阵 。 

定义 5 考 存 在 一 个 置换 矩阵 已 ， 使 4i 2 P-142P， 则 称 Ai, Az 是 置换 相似 。 

由 图 的 同 构 定义 以 及 算 阵 特征 值 理论 易 得 以 下 结论 。 

定理 1 FASEREN, WE = 三 ， 且 置换 移 阵 可 以 表示 成 一 系列 初等 置换 定 阵 
的 乘积 。 

定理 2 A, Az 分 别 表 示 图 Gi, Go 的 连接 和 矩阵， 则 Gi 和 Gs 同 构 的 充分 必要 条 件 是 存在 置 
HERE P 1E A = PLAP. 

推论 1 Gi A G: 同 构 的 充分 必要 条 件 是 A1, Az ARIN 

定理 3 WRG 和 Gs 同 构 ， 则 它们 的 闫 序 度 向 量 相等 ， 其 连接 矩阵 A1, A» 有 相同 的 特征 
值 。 
定义 6 ERG = (VBE) 中 ， 从 节点 i 到 j 需 要 经 历 的 最 少 边 数 称 为 节点 i 到 节点 7 的 中 
离 。 
定义 7 设 v 是 图 G 是 一 个 节 上 点， 与 的 距离 为 1 的 节点 的 集合 称 为 节 避 v 的 第 1 个 环 。 
WG 是 一 个 k 阶 连通 图 ，vo 是 G* 的 一 个 节点 ， 则 vo 最 多 有 一 1 个 丈 ， 其 各 环 中 分 布 的 
节点 个 数 (zl za ,Zk-1) 称 为 G* 以 vo 为 中 心 的 环 分 布 ， 所 有 可 能 的 环 分 布 用 P( 表示 ， 
B PO) = (PP) PO 表示 第 i 类 环 分 布 在 节点 vo 的 第 ;个 坏 上 的 节点 个 数 ，N 表示 
坏 分 布 类 型 数 。 例 如 ，3 阶 连 通 图 所 有 可 能 的 分 布 类 型 在 两 种 ， 即 


P(3) = 
0 1 


一 般 地 ，P(*) 的 确定 可 由 如 下 的 定理 4 给 出 。 
定理 4 wPO 表示 将 P( 的 第 一 列 元 素 加 1， 并 在 最 后 补 上 一 列 0 得 到 的 矩阵 ，BR 和 9 表 
ad PO) 的 第 一 列 前 面 补 上 一 列 1 得 到 的 矩阵 ， 则 PC*D 就 是 PO 和 PC? 上 下 拼接 得 到 的 外 
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k 
pi 


证 明 qt REX, AEEA. 
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3 ”基于 环 分 布 的 子 图 搜索 算法 


华 搜 索 n 阶 图 G 的 所 有 Ek 阶 子 图 5S% 时 ， 先 从 G 中 取 一 个 节点 ， 不 妨 设 v1， 搜 索 所 有 人 包含 
节点 器 的 kk 阶 子 图 ， 记 为 Sp(w1)， 然 后 从 G 中 删除 以 及 与 之 相连 的 边 ， 再 从 G 中 取 一 个 节 
点 va， 重 复 上 述 过 程 ， 得 到 Sk(v2), Sk(v3),… ,Sk(vn-_k+41)， 显 然 ，Sk(vi) N Sklov) = Q, iz 
); H 
d n—k+1 

Sk= |] Sx). 
i=1 

在 搜索 Si(w1) 时 ， 由 杆 Sp(v1) 中 的 每 个 子 图 都 包含 节点 v1， 这些 子 图 相对 于 vi 的 所 有 可 
能 的 环 分 布 和 2*-?2 种 ， 依次 搜索 以 1 为 中 心 的 各 种 环 分 布 的 子 图 ， 记 第 i 种 环 分 布 的 子 图 
为 Si(w1)， 则 SE(w1)nsz(vi) = 9,i 关 7j， 且 


2k—2 


Sk(v1) = U Si (v). 
i—1 

由 于 Si(w) 是 指 以 为 中 心 的 第 i 种 环 分 布 的 子 图， 所 以 其 余 的 上 一 个 节点 在 的 各 个 环 
上 ， 分 布 的 节点 数 为 PD，j = 1,2,… ,kk 一 1。 搜 索 时 ， 从 开始 在 它 的 各 个 环 上 扩张 ， 
直到 kk 个 节点 。 记 当前 搜索 的 子 图 为 Gs， 则 给 Gs 赋 初 值 ww， 即 G。= {u} HAv 的 第 
ee oe NE 

点 的 选择 (在 Ri 中 任 选 P 四 个 节点 )， 对 每 一 个 选 搓 wi (wi 是 为 中 PP 加 个 节点 组 成 的 节 
ed E — 4 Sn 而 与 Gs 无 连 边 的 节点 集 Ro PH w 加 到 Gs 中 ， 
EI Gs = GsUwi。 如 果 中 节点 数 不 小 于 己 W， 则 在 已 中 遍历 PO 个 节点 的 选择 ， 对 每 一 个 
选择 wa， 计算 与 wa 至 少 一 个 节点 有 连 边 ， 而 与 Gs 无 连 边 的 节点 集 Ra， 更 新 G。= G。Uuz， 
依次 类 推 ， 直 到 G。 中 的 节点 数 等 于 k。 根 据 上 述 的 算法 描述 ，Si(wi) 中 的 子 图 不 会 被 遗漏 ， 所 
得 不 同 的 Gs 相对 于 wi 的 环 数 是 一 样 的， 每 个 丈 上 分 布 的 节点 数 是 相同 的 ， 但 不 同 的 Gs 22 
有 一 个 环 上 的 节点 是 不 同 的 ， 所 以 不 会 重复 搜索 到 同一 个 子 图 。 

上 述 算法 形式 化 描述 如 下 : 

输入 : 图 G 的 连接 矩阵 4， 子 图 阶 数 上 ， 输 出 : 图 G 的 所 有 天 阶 子 图 subgraph。 

1: for=1 to n 一 上 k 十 1 // 对 所 有 的 节点 


2: subgraph-1 

3: w=1 

4: 至 = 与 节点 也 相连 的 节 

5: for i=1 to 2*7? a 的 环 

6: s=1 

T: subgraph-EXTENDSUBGRAPH(subgraph, i, s, R) 
8: endfor 
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9: A 一 期 除 4 的 第 一 行 和 第 一 列 

10: endfor 

函数 subgraph=EXTENDSUBGRAPH(subgraph, i, s, R) 是 第 i 个 分 布 类 在 第 s 个 坏 中 扩展 
T A CREE hë Pis NW) 

Function subgraph-EXTENDSUBGRAPH(subgraph, i, s, R) 

1: if |subgraph| == k //k 为 子 图 阶 数 

2: 输出 subgraph // 

3: return 

4: endif 
5: while |subgraph| z 0 and |R] > Ps 
6: for all w //w Xs MJ, R PU Pis NHR — 3063€ 
T: R1-neighbor(A, subgraph, w) 
8: subgraph- subgraph U w 
9: 


s=s+1 
10: subgraph=EXTENDSUBGRAPH(subgraph, i, s, R1) 
11: endfor 
12: endwhile 
13: return 


函数 R=neighbor(A, subgraph, w) 是 计算 与 由 全 少 有 一 个 节点 有 连 边 而 与 subgraph 没有 连 
边 的 节点 ， 即 subgraph 的 下 一 个 环 。 


4 同 构 分 类 算法 


在 频繁 子 图 的 搜索 过 程 中 ， 每 搜索 到 一 个 子 图 都 需要 判定 是 奋 与 己 有 的 某 子 图 相同 ( 同 
构 )， 然 后 才能 够 确定 这 个 子 图 的 类 别 并 进行 频数 的 统计 。 在 一 般 意 义 下 ， 图 的 同 构 是 NP-56 
全 问题 n0， 尽 管子 图 阶 数 不 高 ， 但 由 于 搜索 到 的 子 图 数量 庞大 ( 见 实 验 结果 数据 )， 同 构 分 类 的 
运算 量 很 大 ， 下 文 将 以 代数 理论 为 基础 ， 利 用 度 序列 和 特征 值 构 造 了 两 种 子 图 同 构 算 法 ， 分 别 
用 于 对 有 向 图 和 无 向 图 的 同 构 判别 。 

4.1 有 向 图 的 同 构 算法 

根据 以 上 定义 ， 两 个 具有 个 节点 的 同 构图 ， 其 连接 矩阵 未 必 相 同 ， 但 可 以 改变 其 中 一 个 
图 节点 的 排列 次 序 ( 不 改变 拓扑 结构 )， 使 它们 的 连接 矩 阵 相等 ， 然 而 节点 的 排序 共有 岂 种 ， 
所 以 直接 利用 定义 来 判断 图 的 同 构 运算 明 很 大 ， 本 节 将 通过 引入 综合 度 ， 根 据 综合 度 是 否 
相等 将 Kk 个 节点 分 成 7 组 ， 第 i 组 为 肆 (i = 1,2,… ,四 个 节点 ， 这 样 就 将 节点 排序 数 从 k! ER 

了 
到 TT ti!。 


设 G 为 一 个 大 阶 有 向 图 ， 计算 其 顺序 综合 度 向 量 ， 根据 定理 3， 如 果 CGai 和 G 的 顺序 度 向 
RAE, Gi 和 Gs 一 定 不 同 构 ， 和 否则 ， 和 需要 做 进一步 的 置换 比较 才能 确定 它们 是 否 同 构 。 

算法 思想 描述 如 下 : 

步骤 1: 输入 Gi 和 Gs AEZ M: A, 和 A»: 

步骤 2: 计算 Gi 和 Gs 综合 度 向 量 和 顺序 综合 度 向 量 ; 

如 果 顺 序 综合 度 向 号 人 不同， 则 Gi 和 Ga AEF, 

如 果 顺 序 综合 度 向 量 相同 ，G1 的 各 节点 按 综合 度 从 小 到 大 重新 标号 ， 如 果 有 若干 个 节 
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点 综合 度 相 同 ， 则 这 些 节 点 之 间 排 序 可 任 取 一 种 ， 按 新 的 节点 标号 更 新 连接 矩阵 A1, G2 的 
各 节点 按 综合 度 从 小 到 大 重新 标号 ， 如 果 车 干 个 节点 综合 度 相同 ， 则 对 综合 度 相 同 的 节 
点 列 出 所 有 可 能 的 排序 ， 设 共有 m 种 (每 个 节点 综合 度 都 不 同 则 m = 1)， 按 各 种 可 能 的 节 
点 排序 哆 新 矩阵 As 产生 m 个 连接 矩阵 A21, 4A22,… ,A2m， 如 果 存 在 i(1 < i < m) 使 41 = 
Azi M) Gi 和 Ga ERJ, EWR E. 

该 算法 对 无 向 图 的 效率 低 于 有 向 图 ， 针 对 算法 的 实验 也 说 明了 这 一 点 。 为 此 ， 下 文 将 针对 
无 向 图 设计 了 特征 值 同 构 算 法 。 

4.2 无 向 图 的 同 构 算法 

GO 表示 天 阶 无 向 连通 图 等 价 类 的 集合 ， 由 于 每 一 个 等 价 类 中 的 图 拓扑 结构 都 一 样 ， 是 同 
一 个 图 ， 获 设 第 i 个 等 价 类 的 图 为 G* (i = 1,2,… , N(k)), IEP N(K) 表示 上 k 阶 无 向 连通 图 等 
价 类 的 个 数 ， 即 GO) = (GO) |(i = 1,2,… ,N(Rk))}， 设 TK+D) 35 GU) 中 的 每 一 个 图 增加 一 个 
节点 所 得 到 的 k 十 1 阶 连通 图 的 全体 ，EG(*+D) 表示 TW+D 中 图 的 等 价 类 全 体 。 

定理 5 HGP (i — 1,2,.… ,NN(k)) 中 的 每 一 个 图 增加 一 个 节点 所 得 到 的 所 有 十 1 阶 连通 
图 中 等 价 类 的 个 数 等 于 kk 十 1 阶 连通 图 的 等 价 类 个 数 ， 即 |EG1D| = [GED], 

证 明 如果 存在 一 个 连通 图 G e G+0 ， 则 一 定 存在 一 个 节点 w， 使 G' = {G \v} eGO?, 
所 以 G e TFt), AmjG e EGED, GED c EGED, REGED c atd, pr 
以 LEGO | z [GED], 

定理 5 表明 ， 要 得 到 上 十 1 阶 无 向 连通 图 的 所 有 等 价 类 ， 不 需要 对 所 有 k 十 1 阶 无 向 连通 图 
进行 同 构 分 类 ， 只 需要 对 T(+D) 中 的 图 进行 同 构 分 类 。 以 定理 5 为 理论 依据 ， 可 以 利用 计算 机 
证 明 出 图 同 构 的 一 个 充分 必要 条 件 ， 并 用 这 一 条 件 来 判别 图 的 同 构 。 

定理 6 设 Gi, Gz 为 节点 数 不 大 于 7 的 无 向 连通 图 ，G1 和 Gs 同 构 的 充分 必要 条 件 是 A1 和 
42 有 相同 的 特征 值 。 

本 定理 的 证 明 由 计算 机 通过 计算 来 完成 ， 其 基本 思想 是 :给 定子 图 阶 数 k， 根 据 定理 5 的 结 
论 和 递 推 关系 产生 一 些 列 矩 阵 (这 些 夭 阵 对 应 的 子 图 所 包含 的 类 别 和 全 部 kk 阶 子 图 包含 的 类 别 
一 样 )， 分 别 利用 4.1 的 算法 和 特征 值 进行 分 类 ， 如 果 分 出 的 类 别 一 样 ， 则 表明 对 天 阶 子 图 ， 两 
个 矩阵 特征 值 一 样 可 以 作为 对 应 子 图 同 构 的 等 价 条件 ， 将 上 加 1 重复 上 述 过 程 ， 如 果 分 出 的 类 
别 个 一 样 ， 表 明 特 征 值 不 能 作为 子 图 同 构 的 等 价 条 件 。 经 计算 ， 当 上 = 8 时 分 的 类 不 一 样 ， 这 
样 就 证 明了 定理 6。 

设 Q@ 表 示 由 kk 一 1 阶 备 等 价 类 图 增加 一 个 节点 得 到 的 所 及 阶 连通 图 ，LQ1 表 示 @ 中 企 部 
等 价 类 (每 一 类 中 的 图 只 用 一 个 图 来 代表 )， 由 定理 5，LQ1 等 于 全 部 k 阶 连通 图 产生 的 等 价 
类 ; 个 =1 表 示 定 理 6 成 立 。 

计算 机 证 明 程 序 流程 如 下 : 

步骤 1: Inputk = 2; 全 =1 表 示 2 阶 图 定理 6 成 立 

步骤 2: Input A=[0,1;1,0]; Q=A，LQ1=A 输入 2 阶 连 通 图 的 类 (只 有 一 类 ) 

步骤 3: While T —1 

步骤 4: Q-EXTEND(LQI1, k) // 在 LQ1E 上 扩展 一 个 节点 产生 大 十 1 阶 图 

步骤 5: 对 Q 中 的 图 利用 2.1 的 算法 进行 分 类 ，LQ1I 表示 所 得 的 类 别 

步骤 6: 对 Q 中 的 图 按 特征 值 是 否 相 等 进行 分 类 ，LQ2 表示 所 得 的 类 别 

步骤 7: If LQ1-LQ2 (分 类 结果 一 致 ， 说 明 特 征 值 相同 可 以 作为 同 构 的 充分 必要 条 件 ) 

步骤 8: T=1; k=k+1 

步骤 9: Else (表明 一 定 存在 两 个 不 同 构 的 图 ， 其 连接 矩阵 的 特征 值 相同 ) 

步骤 10: T=0 
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步骤 11: Endif 

步骤 12: Endwhile 

步骤 13: Output T, k 

程序 执行 结果 如 下 : 

当 节 点 数 k 二 8， 程序 结束 ， 得 到 两 个 8 节点 的 不 同 构 图 有 相同 的 特征 值 ， 如 图 1 和 图 2 所 
示 ， 它 们 不 同 构 ， 但 共 连 接 算 阵 的 特征 值 均 为 (-2.0000,-1.6624,-1.0000,-0.7574, 0.4249, 1.0000, 
1.4959, 2.4989)。 但 当 k < 8 时 ， 定 理 6 成 立 。 


图 1: 8 阶 无 向 图 a 图 2: 8 阶 无 向 图 b 


根据 定 填 6， 对 低 于 8 阶 的 无 向 子 图 进行 同 构 分 类 时 ， 可 以 利用 连接 矩阵 的 特征 值 进行 判 
靳 ， 而 在 频繁 子 图 挖掘 问 题 中 ， 子 图 的 阶 数 小 于 8Ba， 所 以 特征 值 同 构 算 法 在 无 向 网 络 的 频繁 
子 图 挖掘 中 可 以 作为 一 般 性 的 结论 。 


5 ”仿真 试验 研究 


实验 的 软件 是 ，Matlab7.1; 实验 的 数据 是 基因 调控 网 络 E. coli 和 Yeast，Electronic，SeaU- 
rchin 和 蛋白质 相互 作用 网 络 Protein， 其 中 Protein 是 无 向 网 络 ， 数 据 来 源 是 文献 [14] 。 

5.1 子 图 搜索 速度 比较 

对 本 文 及 文献 [7] 的 子 图 搜索 算法 分 别 进行 编程 计算 ， 对 5 个 真实 的 网 络 ， 分 别 搜 索 了 3- 
7 阶 子 图 ， 并 统计 了 搜索 时 间 ， 上 有 具体 结果 见 表 1(3 阶 子 图 的 搜索 结果 未 在 表 中 列 出 )， 从 表 
中 可 以 看 出 ， 随 着 子 图 节点 的 增加 ， 其 数量 急剧 上 升 ， 搜 索 时 间 也 增加 ， 但 本 文 的 搜索 算 
法 (ESR) 在 单位 时 间 内 搜索 到 的 子 图 数量 基本 不 变 ， 所 以 本 算法 的 效率 高 于 文献 [7]。 


Ru 子 图 数量 及 搜索 时 间 表 


边 / 节 点 4 阶 子 图 5 阶 子 图 6 阶 子 图 7 阶 子 图 
子 图 数量 时 间 子 图 数量 wu 于 图 数量 时 间 子 图 数量 时 间 
ESR 83893 7.3 1433502 44 22532584 559.9 319521581 9199 
E.coli 519/423 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
ESU 83893 9 1433502 170 22532584 >2h 319521581 >3h 
ESR 10168 8.0 53155 12 303689 40 1781484 158 
Electronic — 819/812. ——L———À———————— — ———————— allna 
ESU 10168 2 53155 13 303689 70 1781484 >3h 
E 2212 0.5 11043 0.9 49320 4 1 2 1 
SeaUrchin 81/45 He. m. 0 OAS CUM AE. UA. Tou 
ESU 2212 1 11043 1 49320 $ 196082 14 
ESR 183174 17 2508149 125 32883898 1501 416284878 20561 
Yeast 1079/688 一 一 一 -一 一 -一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 
ESU 183174 30 2508149 600 32883898 416284878 
: ESR 118129 5.4 1685010 40 22990600 493.6 297549099 8268 
Protein Ti6/210 “一 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


ESU 118129 8 1685010 180 22990600 297549099 
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WH: ESR 是 本 文 算法 ，ESU 是 文献 [7] 的 算法 ， 时 间 单 位 是 秒 ， 表 中 空缺 部 分 表示 作者 按 
文献 编写 的 程序 在 2 小 时 内 未 算出 结果 ， 对 应 的 子 图 数量 来 自 参考 文献 [7]。 

5.2 子 图 同 构 分 类 

由 表 2 可 见 ， 不 同 的 网 络 ， 搜 索 到 的 子 图 数量 差别 很 大 ， 同 一 个 网 络 ， 随 着 子 图 阶 数 的 提 
高 ， 其 数量 急剧 增加 。 要 搜索 阶 数 较 高 的 频繁 子 图 ， 同 构 分 类 的 运算 量 很 大 ， 所 以 当 子 图 数 
量 很 大 时 ， 从 搜索 到 的 子 图 集中 随机 抽取 一 定数 量 的 样本 (本 文 抽取 100 万 个 ， 子 图 数量 小 
T 100 万 就 精确 计算 频率 ) 米 估 计 子 图 频率 。 表 3 列 出 了 几 种 同 构 算 法 的 运行 时 间 ， 表 4 列 出 
T E.coli fll Protein 网 络 的 7 阶 频 繁 子 图 (前 3 个 )。 


A2: 同 构 分 类 时 间 比 较 


分 类 时 
边 数 M e EN o tere 
特征 值 算法 ”局 部 置换 算法 ”文献 [四 算法 
E.coli (有 向 图 ) — 519 423 无 效 1617 2285 
Protein (无 向 图 ) — 716 270 535 3268 4162 


表 3: 前 三 个 7 阶 频繁 子 图 


序号 E.coli Protein 
E ———————— M /————————— 
频繁 子 图 频率 频繁 子 图 频率 
A 
1 AS 0.4473 VA ^ 0.0784 
X AN 
2 T 0.1728 0.0718 
TA | 
3 A 0.0856 WA 0.0513 


实验 结果 分 析 : 1) 同 构 分 类 的 时 间 代 价 较 高 ， 主 要 是 因为 在 分 类 过 程 中 ， 每 一 个 子 图 都 
要 与 已 有 的 类 进行 比较 ， 如 果 它 与 已 有 的 某 个 类 同 构 ， 则 将 该 类 的 计数 加 1， 和 否则 ， 将 该 子 图 
妇 到 一 个 新 的 类 。 所 以 ， 对 每 一 个 子 图 的 分 类 需要 进行 多 次 的 同 构 比较 ， 运 算 量 非常 大 ， 从 
而 同 构 分 类 问题 成 为 频繁 子 图 挖掘 中 的 一 个 瓶颈 问题 。2) 在 对 无 向 图 的 同 构 分 类 中 ， 本 文 提 
出 的 特征 值 算法 效率 明显 高 于 局 部 置换 算法 和 文献 [10] 的 算法 。3) “顺序 度 算法 的 效率 高村 文 
献 [10] 的 最 小 编码 算法 ， 顺 序 度 算法 和 最 小 编码 算法 对 无 向 图 效率 低 。 


6 总结 与 展望 
本 文 首先 提出 了 基于 环 分 布 的 子 图 搜索 算法 ， 它 包括 环 分 布 类 型 的 确定 和 子 图 搜索 ， 为 了 


得 到 子 图 的 频率 ， 必 须要 涉及 子 图 同 构 算 法 ; 为 此 又 构造 了 综合 度 同 构 算法 和 特征 值 同 构 算 
法 。 通 过 对 5 个 真实 网 络 数据 的 仿真 实验 研究 ， 表 明 本 文 提出 的 算法 比 现 有 算法 的 效率 高 。 在 
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大 型 网 络 (生物 网 络 ， 社 会 网 络 等 ) 的 模 体 发 现 问题 中 ， 如 果 能 够 知道 模 体 的 一 些 先 验 信息 ， 就 
可 以 在 搜索 过 程 中 排除 一 些 结构 类 型 ， 进 一 步 提高 搜索 效率 。 由 于 本 文 的 算法 效率 高 ， 我 们 下 
一 步 的 研究 工作 是 将 该 算法 应 用 到 生物 网 络 数据 中 ， 通 过 对 真实 网 络 数据 及 随机 网 络 的 频繁 子 
图 的 比较 找 出 生物 模 体 单元 。 
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A Ring Distribution Based Algorithm for 
Finding Frequent Subgraphs 
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Abstract: Frequent subgraph mining includes subgraph search and isomorphism problems. For the 
subgraph searching, we propose the definition of a ring distribution and provide a novel subgraph search 
algorithm based on the ring distribution. Furthermore, by using the degree sequence and eigenvalue, 
we present two algorithms for subgraph isomorphism in directed and undirected graphs, respectively. 
Finally, we experimentally evaluate the performance of our algorithms by using real networks. The 
simulation results show that our algorithm is more effective than existing algorithms. 
Keywords: frequent subgraph; subgraph search; subgraph isomorphism; eigenvalue; degree sequence 


